クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2024年12月号
AWS事業本部コンサルティング部の石川です。日々AWSのアナリティクス関連サービスのアップデートとそのブログをご紹介します。
いよいよ、明日(現地時間)から AWS re:Invent 2024は始まります。11月は、いわゆる「AWS re:Invent 予選落ちアップデート」や駆け込み一般提供開始(GA: Generally Available)の連続で、特に、Redshift、QuickSight、OpenSearch関連のアップデート祭りでした。AWS re:Invent 2024に備えて、予習に役立ててください。
他にもアップデートがあるので紹介します!
Amazon Redshift Provisioned / Redshift Serverless
新機能・アップデート
2024/11/01 - AWS announces CSV result format support for Amazon Redshift Data API
Amazon Redshift Data APIは、これまでJSONフォーマットでのみ結果を返していましたが、今回のアップデートでCSVフォーマットのサポートが追加されました。この新しいオプションにより、ユーザーは以下のメリットがあります。
- データの可読性向上
- スプレッドシートアプリケーションとの互換性
- データ処理の効率化
2024/11/08 - Amazon Redshift Serverless higher base capacity of 1024 RPUs is now available in additional AWS regions
Amazon Redshift Serverless の最大ベースキャパシティが512RPUから1024RPUに増加されたことをお知らせします。(東京リージョンではまだ利用できませんが、某社の大きなイベントで発表されると念じてます。)
Amazon Redshift Serverlessの最大処理能力が、従来の512RPUから1024RPUに倍増しました。この拡張により、ユーザーはより大規模なワークロードを処理できるようになり、データウェアハウスの性能が大幅に向上します。
2024/11/15 - Amazon S3 Access Grants now integrate with Amazon Redshift
S3 Access Grantsを使用することで、IDプロバイダー(IdP)のユーザーやグループをS3のデータセットに直接マッピングでき、複雑なバケットポリシーや個別のIAMロールの作成・管理が不要になります。特に、IAM Identity Center認証を使用するRedshiftユーザーにとっては、COPY、UNLOAD、CREATE LIBRARYなどのSQLコマンドを通じてS3データの読み書き権限が自動的に付与されるため、データアクセスの管理が大幅に簡素化されます。
さらに、IdPでのユーザーグループの変更に応じてS3の権限が自動更新される機能は、大規模な環境での権限管理を効率化し、セキュリティリスクを低減させます。
2024/11/18 - Amazon Redshift to enhance security by changing default behavior
Amazon Redshiftは3つの重要なセキュリティ強化を実施します。これらの変更は、データセキュリティのベストプラクティスを促進し、潜在的な設定ミスのリスクを軽減することを目的としています。
- パブリックアクセシビリティの無効化
- データベース暗号化の自動有効化
- SSL接続の強制
2024/11/22 - Amazon Redshift Query Editor V2 Increases Maximum Result Set and Export size to 100MB
Amazon Redshift Query Editor V2が、クエリ結果セットの最大サイズと出力サイズを100MBまで拡大しました。この更新により、行数の制限なしで大規模なデータセットを扱えるようになりました。以前の制限である5MBまたは100,000行から大幅に拡張されたことで、ユーザーはより柔軟にデータを扱えるようになります。
2024/11/22 - Amazon Redshift announces support for Confluent Cloud and Apache Kafka
Amazon Redshiftのストリーミングインジェスション機能の拡張は、Confluent Managed CloudやAmazon EC2上の自己管理型Apache Kafkaクラスターからのデータ取り込みがサポートされ、データソースから直接Amazon Redshiftにデータを取り込むことが可能となりました。
2024/11/26 - Amazon Redshift multi-data warehouse writes through data sharing is now generally available
Amazon Redshift のデータ共有(Data Sharing) は、複数のデータウェアハウス(Amazon Redshift Provisioned、Amazon Redshift Serverless)間でデータのコピーや移動することなくデータを共有するサービスです。データ共有はデータへのライブアクセスを提供するため、データが更新されてもユーザーは常に最新の一貫性のある情報を見ることができます。
マルチデータウェアハウス書き込み機能とは、データ共有(Data Sharing)したクラスタ間でデータを双方向で書き込みできる機能です。これまでは、データコンシューマーは参照のみでしたが、今回のアップデートで、コンシューマーRedshift(共有される側のRedshift)からデータベースへの書き込みが可能になりました。
APIの変更点
2024/11/14 - Amazon Redshift - 3 updated api methods
Amazon Redshift S3AccessGrantsのサポートを追加。
AWS Glue
新機能・アップデート
2024/11/13 - AWS Glue Data Catalog now supports scheduled generation of column level statistics
Apache Icebergテーブルや他の一般的なファイル形式に対する列レベル統計の定期生成サポートは、AWS Lambda やAmazon EventBridge Schedulerを組み合わせて使用する必要がなくなり、Glue Data Catalog内で直接スケジュールを設定できるようになりました。
この新機能は、データ管理の効率化とクエリパフォーマンスの向上に貢献します。Amazon Redshift SpectrumやAmazon Athenaのコストベースオプティマイザー(CBO)と統合されることで、クエリの最適化が進み、潜在的なコスト削減にもつながります。さらに、Apache Icebergテーブルに対する個別値の数(NDV)の収集や、他のファイル形式に対する追加統計情報の収集により、より詳細なデータ分析が可能になります。
2024/11/19 - AWS Glue expands connectivity to 19 native connectors for Enterprise applications
AWS Glueが19の新しいコネクタを発表し、接続性が拡大しました。新しくFacebookAD、GoogleAD、Google Analytics 4、Google Sheets、Hubspot、InstagramAD、Intercom、Jira Cloud、Marketo、Oracle NetSuite、SAP OData、Salesforce Marketing Cloud、Salesforce Marketing Cloud Account Engagement、ServiceNow、Slack、SnapchatAD、Stripe、Zendesk、Zoho CRMからデータを取り込むためにAWS Glueのネイティブコネクタを使用できるようになりました。
2024/11/10 - AWS Glue Data Catalog now supports Apache Iceberg automatic table optimization through Amazon VPC
AWS Glue Data Catalogは、Apache Icebergテーブルの自動最適化機能を提供し、データの圧縮、スナップショット管理、孤立(Orphan)データの処理などを行います。この機能により、日々のIcebergテーブルのメンテナンスタスクが簡素化されました。
しかし、インターネット経由のデータレイクへのアクセスを許可しない環境(境界型セキュリティ)の場合、Icebergテーブルのデータを保存しているS3のバケットポリシーで、アクセス経路やプリンシパルを制限します。この場合、基本パブリックサービスであるGlue は、テーブルの最適化ができなくなっていました。そこで登場したのが、 Apache Icebergテーブルの自動最適化機能がVPC対応です。
特定のVPC環境からのみアクセス可能なApache Icebergテーブルの自動最適化により、セキュリティを維持しながらストレージの最適化とクエリパフォーマンスの向上が可能になります。
2024/11/22 - Announcing generative AI upgrades for Apache Spark in AWS Glue (preview)
現在でも、AWS Glue と Amazon Q Developersの統合によって、自然言語でETLジョブのコードの雛形を生成したり、トラブルシューティングする機能があります。
今回の新機能は、既存の Spark ジョブを迅速にアップグレードして最新化できるようにする新しいジェネレーティブ AI 機能です。Amazon Bedrock を搭載したこの機能は、Spark スクリプトと設定の分析と更新を自動化し、Spark のアップグレードに必要な時間と労力を短縮します。
2024/11/10 - Announcing generative AI troubleshooting for Apache Spark in AWS Glue (Preview)
現在でも、AWS Glue と Amazon Q Developersの統合によって、トラブルシューティングの支援する機能があります。これはトラブルに関する自然言語の質問に対して、自然言語の回答を返すものです。回答の専門性や精度は高いのですが、適切に質問をしなければ良い回答が得られませんでした。
今回の新機能は、Sparkジョブのトラブルシューティングする新しいジェネレーティブ AI 機能です。Amazon Bedrock を搭載したこの機能は、コードはもちろん、ジョブメタデータ、メトリクス、ログから障害が発生した Spark アプリケーションのトラブルに対して、自動的に原因を分析し、特定された問題を修正するための実用的な推奨事項を提供します。まだ、プレビュー版ですので変更される可能性があります。
APIの変更点
2024/10/31 - AWS Glue - 6 new2 updated api methods
AWS Glue 列統計のスケジュールサポートを追加。
2024/11/19 - AWS Glue - 4 updated api methods
AWS Glue データカタログでは、特定の Amazon Virtual Private Cloud (VPC) 環境からのみアクセスできる Apache Iceberg テーブルのマネージドテーブル最適化が強化されました。
Amazon QuickSight
新機能・アップデート
2024/11/08 - Amazon QuickSight now supports Client Credentials OAuth for Starburst through API/CLI
Amazon QuickSightが発表したStarburstデータソースへの接続に関する新機能は、クライアント認証フローを基にしたOAuthをAPI/CLIを通じて利用可能にすることで、企業はインフラストラクチャをコードとして管理する取り組みの一環として、より効率的にStarburst接続を作成できるようになりました。
特にマシン間通信におけるセキュリティと効率性を向上させます。トークンベースとX509ベースの両方のOAuth認証をサポートすることで、様々なセキュリティ要件に対応できます。さらに、ロールベースのアクセス制御(RBAC)の導入により、QuickSightの作成者は、各ロールに紐づいたスキーマやテーブル情報を適切に表示できるようになり、データガバナンスとセキュリティが強化されます。
2024/11/14 - Amazon QuickSight launches self serve Brand Customization
新機能「セルフサービスブランドカスタマイズ」は、データ分析ツールにおけるブランディングの重要性を示す画期的な機能です。この機能により、組織は自社のビジュアルアイデンティティをQuickSightに統合し、一貫性のあるユーザーエクスペリエンスを提供することが可能になりました。ロゴ、カラースキーム、ファビコンなどの要素をカスタマイズすることで、QuickSightは単なるデータ分析ツールから、組織のブランドを体現するプラットフォームへと進化します。
2024/11/20 - Amazon QuickSight supports fine grained permissions for capabilities with APIs for IAM Identity Center users
Amazon QuickSightの管理者は、IAM Identity Centerユーザーに対してより細かな権限制御を行うことが可能になりました。カスタム権限プロファイルを作成し、特定のユーザーに割り当てることで、QuickSightアプリケーション内の機能へのアクセスを制限できます。例えば、データのExcel・CSV形式でのエクスポートや、QuickSightアセットの共有を制限することができます。
この機能を管理するために、新しいAPIが導入されました。カスタム権限プロファイルの作成、一覧表示、詳細表示、更新、削除のためのAPIと、ユーザーへのカスタム権限の割り当てや削除を行うAPIが用意されています。これらのAPIは、QuickSightで使用されるすべての認証タイプでサポートされています。
2024/11/22 - Amazon QuickSight now supports font customization for visuals
Amazon QuickSightのフォントカスタマイズ機能の追加は、ユーザーはテーブルやピボットテーブルなどの特定のビジュアルに対して、フォントサイズ、フォントファミリー、色、スタイリングオプションを完全にカスタマイズできるようになりました。これにより、組織のブランディングガイドラインに合わせたダッシュボードの作成が可能となり、一貫性のある視覚的に魅力的な体験を提供できます。
さらに、この機能は単なる見た目の改善だけでなく、実用的な利点も提供します。大画面でビジュアルを表示する際の読みやすさの向上やアクセシビリティ基準の達成に役立ちます。
2024/11/22 - Amazon QuickSight launches Image component
Amazon QuickSightに新たに追加されたImage Componentは、ダッシュボード、分析、レポート、ストーリーの作成において、静的画像の柔軟な活用を可能にする機能です。この機能により、企業ロゴやブランディング要素の追加、フリーフォームレイアウトでの背景画像の使用、魅力的なストーリーカバーの作成など、多様なユースケースに対応できるようになりました。
2024/11/22 - Amazon QuickSight launches Layer Map
新機能「Layer Map」は、ユーザーは独自の地理的境界を用いて、より詳細かつカスタマイズされたデータ分析が可能になります。例えば、選挙区や販売地域、ユーザー定義の地域など、特定のニーズに合わせた地図表現が実現します。
Layer Mapの主な特徴は、GeoJSONファイルを使用してカスタム形状レイヤーを基本地図に追加できることです。これにより、データと地理情報を結合し、視覚的に表現することが可能になります。さらに、色、境界線、透明度の調整や、ツールチップやアクションを通じたインタラクティブ性の追加など、スタイリングのオプションも豊富です。
2024/11/22 - Amazon QuickSight now supports import visual capability (preview)
Amazon QuickSightの新機能である「ビジュアルのインポート機能」(プレビュー版)は、既存のダッシュボードや分析から視覚的要素を現在の分析にインポートすることが可能になり、データセットやパラメータ、計算フィールド、フィルター定義、条件付き書式ルールなどの関連する依存関係も一緒に転送されます。
2024/11/22 - Amazon QuickSight launches Highcharts visual (preview)
Amazon QuickSightの新機能であるHighcharts視覚化ツールは、ユーザーは標準的なチャートを超えて、サンバーストチャートやネットワークグラフ、3Dチャートなど、より多様で複雑な視覚化を作成できるようになりました。
JSONシンタックスを使用することで、チャートの細かなカスタマイズが可能となり、QuickSightのフィールドやテーマを簡単に参照できます。さらに、統合されたコードエディタは、オートコンプリート機能やリアルタイムバリデーションなどのサポート機能を提供し、ユーザーの作業効率を向上させます。
2024/11/26 - Amazon QuickSight now supports prompted reports and reader scheduling for pixel-perfect reports
Amazon QuickSightの新機能である「プロンプト付きレポート」と「リーダースケジューリング」は、ユーザーは自分のニーズに合わせてレポートをカスタマイズし、定期的に受け取ることが可能になりました。特に注目すべきは、リーダーが自分自身で最大5つのスケジュールを作成できるようになったことです。
このアップデートは、データの消費方法をより個人化し、効率的にするものです。著者がレポートにフィルターコントロールを追加することで、異なる対象者向けにカスタマイズされたビューを作成できます。一方、リーダーはこれらのプロンプトを使用してデータをフィルタリングし、関心のある情報だけをスケジュールされたレポートとして受け取ることができます。
APIの変更点
2024/11/07 - Amazon QuickSight - 6 updated api methods
Snowflake と Starburst のクライアント資格情報ベースの OAuth サポートを追加。
2024/11/14 - Amazon QuickSight - 17 new api methods
このリリースでは、QuickSight でのカスタム権限管理用の API と、QuickSight ブランディングをサポートする API が追加されました。
2024/11/22 - Amazon QuickSight - 3 new15 updated api methods
このリリースには、画像、レイヤー マップ、フォント カスタマイズ、およびプラグイン ビジュアルをサポートする API の更新が含まれています。ListNamsespace API に ID センター関連情報を追加します。トピックでの restrictFolder サポート用に API を更新し、SearchTopics、Describe/Update DashboardsQA Configration 用の API を追加します。
Amazon DataZone
新機能・アップデート
2024/11/08 - Amazon DataZone での価格の改訂と、ユーザーレベルのサブスクリプション料金の廃止
Amazon DataZoneの価格改定は、月額サブスクリプション料金の廃止により、ユーザー数に関係なくサービスを利用できるようになり、より柔軟な運用が可能になりました。従量課金制への移行は、リソース使用量に応じた公平な課金を実現し、コスト効率を高めています。さらに、メタデータストレージの価格引き下げやコアAPIの無料提供は、顧客の負担を軽減し、サービスの利用価値を高めています。これらの変更は、Amazon DataZoneの利用障壁を下げ、より多くの企業がデータ管理とガバナンス機能を活用できる環境を整えています。結果として、顧客はコスト面を気にすることなく、必要に応じてサービスを拡張し、より広範なユーザーベースにアクセスを提供できるようになりました。
2024/11/08 - Amazon DataZone now supports meaning-based Semantic search
Amazon DataZoneが意味ベースのセマンティック検索機能をサポートするようになり、データユーザーのアセット検索と発見方法が向上しました。既存のキーワードベースの検索に加えて、概念や関連用語による検索が可能になりました。これにより、ユーザーのクエリの意図に基づいて関連データセットを発見できるようになり、検索結果の関連性と品質が改善されました。
Amazon DataZoneのセマンティック検索機能は、GenAI検索エンジンによって駆動されています。このエンジンは埋め込み言語モデルを使用して疎ベクトルを生成し、アセットに意味的に関連する用語を付与します。例えば、「利益」を検索すると、「利益」というキーワードに加えて、売上、コスト、収益に関連するデータアセットも返されるようになりました。
2024/11/25 - Amazon DataZone now enhances data access governance with enforced metadata rules
Amazon DataZoneの新機能である強制メタデータルールは、ドメイン所有者は必須のメタデータ要件を定義し、強制することができ、データ消費者がAmazon DataZoneのデータアセットにアクセスを要求する際に、必要不可欠な情報を提供することを確実にします。これにより、組織はコンプライアンス基準を満たし、監査への準備を整え、アクセスワークフローを簡素化して効率性と制御を向上させることができます。
APIの変更点
2024/11/20 - Amazon DataZone - 5 new6 updated api methods
このリリースでは、サブスクリプション要求の作成アクションのメタデータ適用ルール機能がサポートされています。
AWS Clean Rooms
新機能・アップデート
2024/11/07 - AWS Clean Rooms ML supports privacy-enhanced model training and inference
AWS Clean Rooms MLのカスタムモデリング機能は、企業とそのパートナーは、機密データや独自のモデルを直接共有することなく、共同でMLモデルのトレーニングと推論を実行できるようになりました。
この技術は、広告主と出版社の協力による効果的なキャンペーン戦略の立案や、金融機関による不正取引の検出など、様々な分野で応用が期待されます。特にデータのプライバシーと所有権を保護しながら、パートナー間で価値ある洞察を得られる点です。
さらに、AWS Clean Rooms MLは、業界標準と比較して最大36%の精度向上を実現するルックアライクモデリング機能も提供しています。これにより、データ活用の可能性が大きく広がり、ビジネスにおける意思決定の質が向上することが期待されます。
APIの変更点
2024/11/07 - AWS Clean Rooms ML - 33 new api methods
このリリースでは、AWS Clean Rooms ML のカスタムモデルのサポートが導入されました。
2024/11/07 - AWS Clean Rooms Service - 6 updated api methods
このリリースでは、AWS Clean Rooms ML のカスタムモデルのサポートが導入されました。
Amazon Managed Service for Apache Flink
新機能・アップデート
2024/11/10 - Amazon Managed Service for Apache Flink now supports Amazon DynamoDB Streams as a source
Amazon Managed Service for Apache Flinkは、DynamoDBのデータ変更をApache Flinkを使用してシームレスに処理できるようになり、より柔軟で効率的なデータ分析が可能になります。
さらに、この統合はサーバーレスアーキテクチャを活用しており、インフラストラクチャの管理負担を軽減しつつ、スケーラブルなソリューションを提供します。他のAWSサービスとの連携も容易になり、より包括的なデータ処理パイプラインの構築が可能になります。
2024/11/22 - Amazon Managed Service for Apache Flink releases a new Amazon Kinesis Data Streams connector
Amazon Managed Service for Apache Flinkが新しいAmazon Kinesis Data Streams用のコネクタをリリースしました。このオープンソースコネクタは、Apache Flink 2.0をサポートし、ストリームのスケールアップやスケールダウン時の順序付き読み取り、Apache Flinkのネイティブウォーターマーキングのサポート、統一されたコネクタメトリクスによる観測性の向上が挙げられます。さらに、このコネクタはAWS SDK for Java 2.xを使用しており、パフォーマンスとセキュリティ機能の強化、およびネイティブのリトライ戦略をサポートしています。
2024/11/25 - Amazon Managed Service for Apache Flink now delivers to Amazon SQS queues
Amazon Managed Service for Apache Flinkが、新たにAmazon Simple Queue Service(SQS)へのデータ送信をサポートするようになり、リアルタイムデータ処理の柔軟性と統合性が大幅に向上しました。ユーザーは処理済みデータをApache FlinkからAmazon SQSのメッセージとして送信できるようになりました。
この統合は、ストリーミングデータの処理と分析において人気の高いフレームワークであるApache Flinkの機能を拡張し、Amazon SQSの堅牢なメッセージングサービスと組み合わせることで、分散システムの統合とデカップリングを容易にします。
2024/11/25 - Amazon Managed Service for Apache Flink now supports Amazon Managed Service for Prometheus as a destination
Amazon Managed Service for Apache FlinkがAmazon Managed Service for Prometheusを送信先としてサポートするようになり、ユーザーはApache Flinkを使用して生データを前処理し、Prometheusメトリクスデータのカーディナリティを管理しながら、リアルタイムの可観測性を構築することが可能になりました。
この統合は、サーバーレスで拡張性の高いPrometheus互換の監視サービスであるAmazon Managed Service for Prometheusと、リアルタイムデータ変換・分析を行うAmazon Managed Service for Apache Flinkの強みを組み合わせています。新しいコネクタにより、Apache Flink version 1.19以降で処理されたデータをAmazon Managed Service for Prometheusに送信できるようになりました。
Amazon OpenSearch
新機能・アップデート
2024/11/07 - Amazon OpenSearch Service announces Extended Support for engine versions
Amazon OpenSearch Serviceは、レガシーElasticsearchバージョンやOpenSearchの特定バージョンに対する標準サポートの終了日が2025年11月7日に設定されたこと、そしてExtended Supportの導入が挙げられます。
Extended Supportは、標準サポート終了後も重要なセキュリティアップデートを継続して受けられる有償オプションです。これにより、ユーザーは追加の料金を支払うことで、より長期間にわたってセキュリティを維持しながら既存のバージョンを使用し続けることができます。
2024/11/07 - Amazon OpenSearch Service launches next-gen UI for enhanced data exploration and collaboration
Amazon OpenSearch Serviceが次世代UIを発表し、データ探索と協業の機能を大幅に強化しました。この新しいUIは、管理ドメインとサーバーレスコレクションにまたがるデータを単一のエンドポイントから分析できる、最新の運用分析体験を提供します。主な特徴として、チーム間の協力と生産性を向上させるWorkspacesの導入、SQLやPPLなどの言語をサポートする統合ログ探索機能Discoverの刷新、複数のデータソースを扱えるデータセレクターの追加などが挙げられます。
この新しい分析体験は、可観測性、セキュリティ分析、基本機能、検索などのユースケースに特化した機能を提供し、運用データからの洞察獲得を支援します。強化されたDiscoverインターフェースにより、ユーザーはツールの切り替えなしで複数のソースからデータを分析できるようになり、効率が向上しました。また、Workspacesの導入により、チームがダッシュボードや保存されたクエリなどのコンテンツを専用の環境で作業できるようになります。
2024/11/11 - Amazon OpenSearch Ingestion adds support for ingesting data from Amazon Kinesis Data Streams
Amazon OpenSearch Ingestionが、Amazon Kinesis Data Streamsからのデータ取り込みをサポートするようになり、ストリーミングデータをAmazon OpenSearch Serviceのマネージドクラスターやサーバーレスコレクションにシームレスにインデックス化できるようになりました。
この統合により、Amazon OpenSearch Ingestionを使用して、Amazon Kinesis Data Streamsから取り込んだデータに対して、ほぼリアルタイムの集計、サンプリング、異常検出を実行できるようになりました。これにより、イベント駆動型アプリケーションやリアルタイム分析のユースケースに対応する効率的なデータパイプラインの構築が可能になります。
Amazon OpenSearch Ingestionパイプラインは、1つまたは複数のAmazon Kinesis Data Streamsからデータレコードを消費し、Amazon OpenSearch ServiceやAmazon S3に書き込む前にデータを変換することができます。また、Amazon Kinesis Data Streamsからデータを読み取る際には、拡張ファンアウトまたは共有読み取りのいずれかを選択できるため、速度とコストのバランスを取る柔軟性が提供されています。
2024/11/13 - Amazon OpenSearch Service now supports 4th generation Intel (C7i, M7i, R7i) instances
Amazon OpenSearch Serviceが第4世代のIntel Xeonスケーラブルプロセッサを搭載したインスタンスをサポートするようになりました。これには、**コンピューティング最適化型(C7i)、汎用型(M7i)、メモリ最適化型(R7i)**が含まれます。これらの新しいインスタンスは、第3世代のIntel C6i、M6i、R6iインスタンスと比較して、最大15%のコストパフォーマンス向上を実現しています。
新しいインスタンスの主な特徴として、Intel Advanced Matrix Extensions(AMX)のサポートが挙げられます。これにより、CPU基盤の機械学習アプリケーションなどで行列乗算操作が高速化されます。また、最新のDDR5メモリをサポートしており、第3世代Intelプロセッサと比較して高帯域幅を提供します。
ユーザーは、OpenSearch Serviceコンソールまたは API を通じて、シームレスにドメインを新しいインスタンスに更新することができます。これにより、既存のワークロードを中断することなく、パフォーマンスの向上とコスト効率の改善を実現できます。
2024/11/14 - Amazon OpenSearch Service adds supports for two new third party plugins
Amazon OpenSearch Serviceが新たに2つのサードパーティプラグインをサポートしたことが発表されました。これらは、Portal26.aiの暗号化プラグインとBabel Streetの名前マッチングプラグインです。
2024/11/14 - Amazon OpenSearch Service now supports OpenSearch version 2.17
Amazon OpenSearch Service が OpenSearch バージョン 2.17 のサポートを開始したことを発表しました。この新バージョンでは、ベクトル検索、クエリパフォーマンス、機械学習(ML)ツールキットの分野で大幅な改善が行われ、アプリケーション開発の加速と生成AI ワークロードの実現を支援します。
主な新機能として、ディスク最適化ベクトル検索が導入されました。これは、メモリ使用量を抑えつつ効率的に動作し、大規模で正確かつ経済的なベクトル検索を実現するための新しいオプションです。また、FAISS エンジンがバイトベクトルをサポートするようになり、k-NN インデックスを圧縮することでコストと遅延を低減しています。
2024/11/19 - Amazon OpenSearch Serverless now supports Binary Vector and FP16 cost savings features
Amazon OpenSearch Serverlessの新機能である**「Binary Vector」と「FP16圧縮」のサポート**しました。これらの機能は、メモリ要件を低減することでコスト削減を実現し、同時にレイテンシーを下げ、許容可能な精度のトレードオフで性能を向上させます。
Amazon OpenSearch Serverlessは、Amazon OpenSearch Serviceのサーバーレスデプロイメントオプションであり、インフラストラクチャ管理の複雑さを排除しつつ、検索および分析ワークロードを簡単に実行できるようにします。このサービスでは、データの取り込み、検索、クエリに使用されるコンピュート容量をOpenSearch Compute Units(OCUs)で測定します。
2024/11/19 - Amazon OpenSearch Service now scales to 1000 data nodes on a single cluster
Amazon OpenSearch Serviceの大規模クラスター対応は、単一クラスターで1000データノードまでスケーリングが可能になり、最大25ペタバイトのデータを管理できるようになりました。複数クラスターの設定や管理の必要性が大幅に減少し、運用の効率化が図れます。従来の200ノード以上や3ペタバイト以上のワークロードに対する複数クラスター設定の課題が解消され、アプリケーションやビジネスロジックの再構築の手間も省けます。
2024/11/19 - Amazon OpenSearch Serverless now supports point in time (PIT) search
Amazon OpenSearch Serverlessが、Point in Time(PIT)検索機能をサポートするようになり、特定の時点で固定されたデータセットに対して複数のクエリを実行することが可能になります。PITは、データが変更され続ける中でも一貫した検索結果を維持できるため、ディープページネーションが必要なアプリケーションや、複数のクエリにわたってデータの安定したビューを保持する必要があるアプリケーションに特に有用です。
2024/11/19 - Disk-optimized vector engine now available on the Amazon OpenSearch Service
Amazon OpenSearch Serviceが提供する新しいディスク最適化ベクトルエンジンは、現代の検索アプリケーションの運用コストを大幅に削減しつつ、高精度な検索結果を維持します。OpenSearch 2.17ドメインで利用可能なこの機能は、k-NN(ベクター)インデックスをディスクモード用に構成することで、低メモリ環境での効率的な運用を可能にします。
2024/11/20 - Amazon OpenSearch Serverless Includes SQL API Support
Amazon OpenSearch Serverlessに新たに追加されたSQL APIサポートは、ユーザーはOpenSearch SQLとOpenSearch Piped Processing Language (PPL)を使用して、REST API、Java Database Connectivity (JDBC)、およびコマンドラインインターフェイス(CLI)を通じてデータにアクセスできるようになりました。
この新機能の主な利点は、既存のSQLスキルやツールを活用してOpenSearch Serverlessコレクション内のデータを分析できることです。データアナリストや開発者は、馴染みのあるクエリ構文を使用でき、既存の分析ツールとの統合も改善されます。特に、AWS CLIを使用してターミナルから直接SQLクエリを実行したり、JDBCドライバーを介して好みのビジネスインテリジェンスツールを接続したり、JavaアプリケーションにSQLおよびPPLクエリを統合したりすることが可能になりました。
2024/11/20 - OpenSearch’s vector engine adds support for UltraWarm on Amazon OpenSearch Service
OpenSearchのベクターエンジンにおけるUltraWarmサポートの追加は、ユーザーはk-NNインデックスをUltraWarm ストレージに保存できるようになり、コスト効率が向上しました。特に、アクセス頻度の低いk-NNインデックスの管理が容易になり、ウォームストレージとコールドストレージの階層を活用することで、ストレージコストを最適化できます。
この機能はOpenSearch 2.17以降のドメインで利用可能となり、ベクター検索ワークロードのコスト最適化をさらに推進します。UltraWarmストレージは完全に管理されたウォームストレージ階層として設計されており、Amazon OpenSearch Serviceのコスト削減を実現します。
2024/11/21 - Amazon OpenSearch Service now supports Custom Plugins
Amazon OpenSearch Serviceが新たに**「Custom Plugins」機能をリリース**しました。この機能により、ユーザーはOpenSearchの機能を拡張し、ウェブサイト検索、ログ分析、アプリケーション監視、可観測性などのアプリケーションにおいて、よりパーソナライズされた体験を提供することが可能になりました。
2024/11/22 - Amazon OpenSearch Ingestion now supports AWS Lambda for custom data transformation
Amazon OpenSearch Serviceが新たに**「Custom Plugins」機能をリリース**しました。この機能により、ユーザーはOpenSearchの機能を拡張し、ウェブサイト検索、ログ分析、アプリケーション監視、可観測性などのアプリケーションにおいて、よりパーソナライズされた体験を提供することが可能になりました。
2024/11/22 - Amazon OpenSearch Ingestion now supports writing security data to Amazon Security Lake
Amazon OpenSearch IngestionとAmazon Security Lakeの新しい統合機能とは、AWSおよびカスタムソースからのセキュリティデータをリアルタイムでAmazon Security Lakeに書き込むことが可能になりました。これにより、セキュリティの潜在的な問題に関する貴重な洞察をほぼリアルタイムで得ることができます。
Amazon Security Lakeは、AWS環境、SaaSプロバイダー、オンプレミスからのセキュリティデータを目的に特化したデータレイクに集中化します。この統合により、顧客は人気のあるカスタムソースからのセキュリティデータをシームレスに取り込み、正規化してからAmazon Security Lakeに書き込むことができるようになりました。
APIの変更点
2024/11/11 - Amazon OpenSearch Service - 3 new9 updated api methods
Amazon OpenSearch Service に新しい AssociatePackages および DissociatePackages API のサポートが追加され、複数のパッケージに対して同時に関連付けと関連付け解除の操作を実行できるようになりました。
Amazon MWAA
新機能・アップデート
2024/11/21 - Amazon MWAA adds smaller environment size
Amazon Managed Workflows for Apache Airflow (MWAA) が新たにマイクロ環境サイズを提供開始しました。この新機能により、マネージドサービスは、より低コストで複数の独立した環境を作成できるようになりました。MWAAは、クラウド上でのエンドツーエンドのデータパイプラインの設定と運用を容易にするマネージド型オーケストレーションサービスです。
新しいマイクロ環境は、開発用途やデータ分離が必要なチームにとって、より効率的で費用対効果の高いソリューションとなります[1][2]。特に、軽量なワークフロー要件を持つチームにとって有益です。この新しい環境サイズは、AWSマネジメントコンソールを通じて、MWAAがサポートする全リージョンで利用可能です。
Amazon EMR
新機能・アップデート
2024/11/20 - Announcing Amazon EMR 7.4 Release
Amazon EMR 7.4のリリースは、Apache Spark 3.5.2やApache Hadoop 3.4.0など、主要なオープンソースフレームワークの最新バージョンがサポートされ、性能と機能が向上しています。特にセキュリティ面での強化は、前バージョンの22エンドポイントに加え、新たに7つのエンドポイントで転送中の暗号化が可能になりました。これにより、Apache LivyやApache Hueなどの分散アプリケーションを使用する際のデータの機密性と完全性が強化されました。
2024/11/26 - Introducing Advanced Scaling in Amazon EMR Managed Scaling
Amazon EMR Managed Scalingの新機能「Advanced Scaling」が発表されました。この機能は、Amazon EMR on EC2クラスターのパフォーマンスとリソース利用を柔軟に制御できるようにするものです。従来のAmazon EMR Managed Scalingは、シンプルさが評価されていましたが、特定の顧客のワークロードに対してクラスターの利用率が低下する場合がありました。
APIの変更点
2024/11/22 - Amazon EMR - 3 updated api methods
Amazon EMR マネージドスケーリングの高度なスケーリング。
Amazon MSK
新機能・アップデート
2024/11/06 - Amazon MSK now supports vector embedding generation using Amazon Bedrock
Amazon Bedrockを用いたAmazon MSKのベクトル埋め込みの生成とインデックス作成がサポートされ、開発者はカスタムコードの作成に時間を費やすことなく、最新のデータを活用した高精度なAIレスポンスの生成に集中できるようになります。
さらに、LangChainライブラリのデータチャンキング技術のサポートにより、データ取得の効率性が向上し、モデル摂取のための高品質な入力が可能になりました。この機能は、ストリーミングデータ、ベクターデータベース、大規模言語モデルの統合を簡素化し、リアルタイムデータの文脈を活用した正確で最新のAIレスポンスの生成を実現します。
2024/11/07 - Express brokers for Amazon MSK is now generally available
Amazon MSKのExpress brokersが一般提供開始となり、Apache Kafkaの標準ブローカーと比較して大幅な性能向上が実現しました。スループットが最大3倍に増加し、スケールアップ速度は20倍に向上、さらに復旧時間も90%短縮されています。Express brokersはKafkaのベストプラクティスに基づいて事前設定されており、既存のすべてのKafka APIをサポートしています。これにより、顧客は既存のクライアントアプリケーションを変更することなく、低レイテンシーのパフォーマンスを維持しつつ、より高性能なサービスを利用できるようになりました。
Express brokersの導入により、Kafkaクラスターの容量を数分で拡張・縮小することが可能になり、事実上無制限の従量制ストレージによってストレージ管理の負担が軽減されます。さらに、Amazon MSKの主要機能やAmazon S3、AWS Glue Schema Registryなどの人気の高い統合機能も引き続き利用可能です。現在、Kafka version 3.6で利用可能なExpress brokersは、Graviton3ベースのM7gインスタンスで3つのサイズ(large、4xlarge、16xlarge)が提供されており、時間単位の料金に加えてストレージと取り込みデータ量に応じた従量制の課金体系となっています。
Amazon Kinesis
新機能・アップデート
2024/11/06 - New Kinesis Client Library 3.0 reduces stream processing compute costs by up to 33%
Kinesis Client Library (KCL) 3.0の導入により、ストリーミングデータ処理のコンピューティングコストを最大33%削減できるようになりました。この新バージョンは、ストリーム処理ワーカーのリソース使用率を継続的に監視し、負荷を自動的に再分配する高度な負荷分散アルゴリズムを特徴としています。これにより、ワーカー間のCPU使用率が均等化され、過剰なプロビジョニングが不要となり、コスト削減につながります。
さらに、KCL 3.0はAWS SDK for Java 2.xを使用して構築されており、パフォーマンスとセキュリティ機能が向上しています。Amazon Kinesis Data Streamsを使用したストリーム処理アプリケーションの開発を簡素化するこのオープンソースライブラリは、負荷分散、障害耐性、サービス調整などの複雑なタスクを管理し、開発者がコアビジネスロジックに集中できるようサポートします。
2024/11/11 - Amazon Kinesis Data Streams launches CloudFormation support for resource policies
Amazon Kinesis Data Streamsが、データストリームとコンシューマーのリソースポリシー管理にAWS CloudFormationのサポートを追加しました。開発者やシステム管理者は、CloudFormationテンプレートを使用してリソースポリシーをプログラム的にデプロイできるようになり、手動設定による人為的ミスのリスクを軽減し、セキュアで効率的、かつ再現性の高い方法でポリシーを管理することを可能にします。
Kinesis Data Streamsの実時間データ処理能力と、CloudFormationのスタックを用いたリソース管理の柔軟性が組み合わさることで、より堅牢で管理しやすいデータストリーミングインフラストラクチャの構築が可能になります。この統合は、大規模なデータ処理システムの運用効率を向上させ、変更の追跡や自動更新、必要に応じたロールバックを容易にします。
Amazon Data Firehose
新機能・アップデート
2024/11/15 - Amazon Data Firehose supports continuous replication of database changes to Apache Iceberg Tables in Amazon S3
Amazon Data Firehoseが新たにデータベースの変更をS3上のApache Iceberg Tablesにリアルタイムでレプリケーションする機能(プレビュー)をサポートしました。この機能により、MySQLやPostgreSQLなどのデータベースからAmazon S3上のApache Iceberg Tablesへ、データを直接ストリーミングできるようになりました。
自動的なスキーマ進化やテーブル作成など、高度な機能を備えており、データ管理の複雑さを大幅に軽減し、ビジネスのデータ駆動型アプローチを可能性にします。
2024/11/20 - Amazon Kinesis Data Streams On-Demand mode supports streams writing up to 10GB/s
Amazon Kinesis Data Streamsのオンデマンドモードがストリーミングアプリケーションの書き込み容量が1ストリームあたり最大10GB/秒、読み取り容量が20GB/秒まで拡張されました。これは以前の制限である書き込み2GB/秒、読み取り4GB/秒から5倍の増加となります。
この改善により、Kinesis Data Streamsは予測不可能で変動の激しいトラフィックパターンを持つワークロードに対して、より柔軟に対応できるようになりました。ユーザーは容量管理を行う必要がなく、ストリーミングされたデータ量に基づいて料金を支払うことができます。
AWS Lake Formation
新機能・アップデート
2024/11/22 - AWS Lake Formation now supports named LF-Tag expressions
AWS Lake Formationが名前付きLF-Tagエクスプレッションのサポートを開始しました。この新機能により、複雑なビジネス要件をより効率的に表現し、管理することが可能になりました。
名前付きLF-Tagエクスプレッションの導入により、顧客は複数のLF-Tagの組み合わせを一つの名前付きエクスプレッションとして定義し、それを複数のユーザーに対して一括して適用できるようになりました。これにより、権限付与のプロセスが大幅に簡素化され、管理の効率が向上します。
さらに、ビジネス要件の変更に伴うLF-Tagオントロジーの更新も、単一のエクスプレッションを修正するだけで済むようになり、個々の権限設定を一つ一つ変更する必要がなくなりました。
APIの変更点
2024/11/06 - AWS Lake Formation - 5 new16 updated api methods
新しい名前付きタグ式機能の API が変更されました。
最後に
AWS re:Invent 2024は、AWSが主催する世界最大規模のクラウドコンピューティングカンファレンスで、2024年12月2日から6日までの5日間、米国ネバダ州ラスベガスで開催されます。このイベントは、AWSのCEOマット・ガーマン、AIとデータ部門のVPスワミ・シヴァスブラマニアン、CTOのヴェルナー・フォーゲルスによる基調講演が行われます。
オンサイト参加が難しい方向けの無料のバーチャルパスも用意されており、世界中の専門家がAWSの最新イノベーションにアクセスできるようになっています。今からでもオンライン参加可能なのでぜひご登録ください。
キーノートはもちろん、データ分析、AIの統合、リアルタイムインサイト、コスト最適化など、幅広いトピックをカバーする多様なセッションに参加できます。